계수 추정값의 정확도 평가

$X$와 $Y$의 실제(true) 선형관계는 어떤 알려지지 않은 함수 $f$에 대해 $Y = f(x) + \epsilon$의 형태를 가지며, $\epsilon$은 평균이 영인 랜덤오차항이다. 만약 $f$가 선형함수로 근사된다면 이 관계를 다음과 같이 나타낼 수 있다.

여기서, $\beta_0$는 절편 즉, $X = 0$일 때 $Y$의 기댓값이고 $\beta_1$은 기울기 즉, $X$의 한 유닛 증가에 연관된 $Y$의 평균 증가이다.
오차항은 이러한 단순한 모델로 나타낼 때 수반되는 여러 가지 한계를 위한 것이다.

  • Advertising 자료에서 sales를 반응변수로 TV를 설명변수로 사용한 RSS의 등고선과 3차원 그래프. 붉은색 점은 최소제곱 추정치 $\beta_0$ 와 $\beta_1$에 해당한다.

예를 들어, $X$와 $Y$의 실제 관계는 아마도 선형적이지 않을 수 있고, $Y$ 값의 변화를 초래하는 다른 변수들이 있을 수 있으며, 측정 오차가 있을 수 있다. 오차항은 보통 $X$와 독립이라고 가정한다.

$ Y=\beta_0+\beta_1X+\epsilon$ 의 모델은 모회귀선(population regression line) 을 정의하며, $X$와 $Y$의 실제 상관관계에 가장 잘 맞는 선형근사이다. 최소제곱회귀계수의 추정치 ($\hat{\beta_1} = \frac{\sum_{i=1}^n(x_i - \bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}$, $\hat{\beta_0} = \bar{y} - \hat{\beta_1}\bar{x}$ )는 최소제곱직선 ($\hat{y} = \hat{\beta_0} + \hat{\beta_1}x$ )을 결정한다.

위 그림의 왼쪽 패널은 간단한 모의 데이터를 이용해 이러한 두 직선을 나타낸다. 100개의 $X$ 값을 임의로 생성하고 아래 모델로부터 100개의 대응하는 $Y$ 값을 생성하였다.

여기서, $\epsilon$은 평균이 영인 정규분포로부터 생성되었다. 위 그림에서 왼쪽 패널의 붉은색 직선은 실제 상관관계 $f(x) = 2 + 3X$를 나타낸 것이고, 푸른색 직선은 관측된 데이터에 근거한 최소제곱 추정값이다. 실재하는 데이터의 경우, 실제 상관관계는 일반적으로 알려져 있지 않지만 최소제곱선은 계수추정값을 사용하여 항상 계산할 수 있다. 다시 말하면, 실제 응용에서는 관측 자료를 사용하여 최소제곱선을 계산할 수 있다. 하지만 모회귀선은 관측되지 않는다. 위 그림의 오른쪽 패널은 $Y = 2 + 3X + \epsilon$ 의 모델을 사용하여 생성한 10개의 서로 다른 데이터셋에 대응하는 10개의 최소제곱선을 도시한 것이다.

언뜻 보기에 모회귀선과 최소제곱선 사이의 차이는 매우 작고 구별하기 어려울 수 있다. 자료가 하나밖에 없는데 두 개의 다른 직선이 설명변수와 반응변수의 상관관계를 기술하는 것은 무엇을 의미하는가?
근본적으로 이 두 직선의 개념은 표본의 정보를 사용하여 큰 모집단의 특징을 추정하는 표준통계적 방법의 자연스러운 확장이다.
예를 들어, 어떤 확률변수 $Y$의 모평균 $\mu$를 알고자 한다고 할 때, 합리적인 추정값은 $\hat{\mu} = \bar{y}$ 이고, 여기서 $\bar{y} = \frac{1}{n}\sum_{i=1}^ny_i$는 표본 평균이다. 표본평균과 모평균은 다르지만 일반적으로 표본평균은 모평균의 좋은 추정값이 된다.

확률변수 $Y$의 모평균 $\mu$의 추정에 대한 비유를 해보자. 표본평균 $\hat{\mu}$ 이 $\mu$의 추정값으로 얼마나 정확한가?
많은 수의 데이터셋에 대한 $\hat{\mu}$의 평균은 $\mu$에 아주 근접하지만, 하나의 추정값 $\hat{\mu}$은 $\mu$를 상당히 과소추정 또는 과대추정 할 수 있다. 하나의 추정값 $\hat{\mu}$는 $\mu$와 얼마나 다를 것인가? 일반적으로 이 질문에 대한 답은 $SE(\hat{\mu})$로 표현하는 $\hat{\mu}$의 표준오차를 계산하는 것이다. 표준오차에 대한 잘 알려진 식은 아래와 같다.

여기서 $\sigma$는 $Y$의 값 $y_i$의 표준편차이다. 대체로 표준오차는 추정값 $\hat{\mu}$이 $\mu$의 실제값과 평균적으로 어느 정도 다른지를 말한다. 위의 식은 또한 $n$이 증가함에 따라 이 편차가 얼마나 줄어드는지를 말해준다. 관측치의 수가 많을 수록 $\hat{\mu}$의 표준오차가 작아진다. 유사한 맥락으로 $\hat{\beta_0}$와 $\hat{\beta_1}$이 얼마나 $\beta_0$와 $\beta_1$에 근접할 수 있는지 궁금할 수 있다. $\beta_0$와 $\beta_1$의 표준오차를 계산하기 위해서는 다음 식을 사용한다.

여기서 $\sigma^2 = \text{Var}(\epsilon)$ 이다. 이 식들이 유효하려면 각 관측치에 대한 오차 $\epsilon_i$가 공통의 분산 $\sigma^2$과 무상관(uncorrelated)이라는 가정이 필요하다. 위 식에서 $\text{SE}(\hat{\beta_1})$은 $x_i$가 넓게 퍼질수록 더 작아진다. 직관적으로 이 경우에는 기울기를 추정할 레버리지(leverage)가 더 많다. 또한, 만약 $\bar{x}$가 0이면(이 경우 $\hat{\beta_0}$은 $\bar{y}$와 동일할 것이다.) $\text{SE}(\hat{\beta_0})$ 은 $\text{SE}(\hat{\mu})$와 동일하게 될 것이라는 것을 알 수 있다. 일반적으로 $\sigma^2$은 알려져 있지 않지만 데이터로부터 추정할 수 있다. $\sigma$의 추정치는 잔차표준오차로 알려져 있으며 $\text{RSE} = \sqrt{\text{RSS} / (n-2)}$로 구해진다. 엄밀히 말해, $\sigma^2$이 추정될 때 추정값이라는 것을 나타내기 위해 $\widehat{\text{SE}}(\hat{\beta_1})$으로 표현해야 한다.

표준오차는 신뢰구간을 계산하는 데 사용될 수 있다. 신뢰구간은 값의 범위로 정의되며, 95% 신뢰구간은 이 값의 범위가 95%의 확률로 파라미터의 알려지지 않은 실제값을 포함하게 될 것이다. 이러한 범위는 데이터 표본으로부터 계산된 하한값과 상한값으로 정의된다. 선형회귀의 경우, $\beta_1$에 대한 95% 신뢰구간은 대략 아래와 같은 형태를 가진다.

즉, 아래의 구간은 대략 95%의 확률로 $\beta_1$의 실제값을 포함할 것이다.

마찬가지로, $\beta_0$에 대한 신뢰구간은 대략 다음의 형태를 가진다.

앞의 광고 데이터에서 $\beta_0$에 대한 95% 신뢰구간은 $[6.130, 7.935]$이고 $\beta_1$에 대한 95% 신뢰구간은 $[0.042, 0.053]$이다. 그러므로, 광고를 전혀 하지 않으면 평균 판매량은 6,130과 7,935대 사이의 어떤 값으로 떨어진다고 결론을 내릴 수 있다. 더불어, TV 광고 투자가 매 1천 달러 증가할 경우 판매량은 평균 42와 53대 사이의 어떤 값만큼 증가할 것이다.

표준오차는 또한 계수들에 대한 가설검정을 하는데 사용될 수 있다. 가장 흔히 사용되는 가설검정은 귀무가설(null hypothesis)대립가설(alternative hypothesis)을 검정한다. 귀무가설이 아래와 같이 표현된다고 하자.

그리고 대립가설은 다음과 같다.

수학적으로 이것은 $H_0 : \beta_1 = 0$ 인지 $H_a : \beta_1 \neq 0$ 인지를 검정하는 것과 같다. 만약 $\beta_1 = 0$ 이면 모델 $Y=\beta_0+\beta_1X+\epsilon$ 은 $Y=\beta_0 + \epsilon$ 이 되므로 $X$는 $Y$와 관련이 없다. 귀무가설을 검정하려면 $\beta_1$이 영이 아니라고 확신할 수 있을만큼 $\beta_1$에 대한 추정값 $\hat{\beta_1}$이 영과 충분히 다른지를 결정해야 한다. 영과 얼마나 다른 것이 충분한가? 물론 이것은 $\hat{\beta_1}$의 정확도에 따라 다르다. 즉, 이것은 $\text{SE}(\hat{\beta_1})$에 따라 다르다. 만약 $\text{SE}(\hat{\beta_1})$이 작으면 $\hat{\beta_1}$이 비교적 작아도 $\beta_1 \neq 0$ 이고 따라서 $X$와 $Y$는 서로 상관되어 있다는 강한 증거가 될 수 있다.

실제로는 아래와 같이 주어지는 t-통계량을 계산한다.

위 식은 $\hat{\beta_1}$ 이 영이 아닌 표준편차의 수를 측정한다. 만약 $X$와 $Y$ 사이에 아무 상관관계가 없으면 위의 식은 자유도가 $n-2$인 t-분포를 가질 것이다. t-분포는 종모양을 가지며 $n$이 대략 30보다 크면 정규분포와 아주 유사하다. 따라서 $\beta_1 = 0$이라고 가정하면 어떤 값이 $|t|$와 같거나 큰 경우를 관측할 확률을 계산하는 것은 간단하다. 이 확률을 p-값이라고 한다. p-값이 작다는 것은 설명변수와 반응변수 사이에 어떠한 실질적인 상관성이 없는데도 우연에 의해 의미있는 상관성이 관측될 가능성이 거의 없음을 나타낸다. 그러므로 만약 p-값이 작으면 설명변수와 반응변수에 상관성이 있다고 유추할 수 있다. 만약 p-값이 충분히 작으면, 귀무가설을 기각하고 $X$와 $Y$ 사이에 상관관계가 있다고 한다. 귀무가설을 기각하기 위한 전형적인 p-값은 5% 또는 1%이며, n=30인 경우 위의 식의 t-통계량으로 약 2와 2.75에 각각 해당한다.

위의 표는 Advertising 자료에서 TV 광고예산에 따른 판매량의 최소제곱회귀모델에 대한 상세사항을 나타낸 것이다.
표를 살펴보면, $\hat{\beta_0}$와 $\hat{\beta_1}$에 대한 계수들은 그들의 표준오차에 비해 상당히 큰 값이며, 그래서 t-통계량도 크다. 만약 $H_0$이 참이면 이러한 값을 관측할 확률은 거의 영이다. 그러므로 $\beta_0 \neq 0$ 이고 $\beta_1 \neq 0$ 이라고 결론을 내릴 수 있다.

Share